轻量型模型比肩千亿大模型,周明团队提出中文语言模型孟子,刷新CLUE纪录
周明团队提出孟子预训练模型,刷新 CLUE 榜单。
坚持 “小而精” 的轻量化训练策略。实现在同等模型规模下,远超公开模型的性能。作为精巧的小模型,对标“巨无霸”,小模型性能超越千亿规模模型。
使用知识图谱增强模型,让 AI 真正获得知识。孟子模型具备顶尖的语言理解能力,在权威 CLUE 中文理解评测的总排行榜,以及分类排行榜和阅读理解排行榜均位列第一,刷新三项榜单世界纪录。总排行榜分数突破 84 分,逼近人类基准分数(85.61)。
灵活的领域和场景适应能力,方便快速定制和应用。基于 T5-style 的端到端生成的训练范式,同步适配 BERT-style 的判定式架构,既能理解也能生成。便于适配行业应用,覆盖广泛业务场景。
模型结构方面,将语义角色、词性标注等语言学特征融合到 Embedding 表示中,基于句法约束引入注意力机制中,从而提升模型对语言学知识的建模能力。
训练策略上,引入基于实体知识和 Discourse 的 Mask 机制,强化模型对语言成分和语篇关系的表征。
为进一步提高训练效率,使用了大模型蒸馏和初始化小模型策略。
为更好地将孟子模型适应垂直领域如金融、营销,使用了领域数据继续训练并构造相应的提示模版(Prompt),取得了明显的性能提升。
数据增强:使用领域相关数据;
知识蒸馏:基于 Teacher-Student 自蒸馏提升训练效率;
迁移训练:结合课程学习的思想,由易到难训练下游模型;
训练优化:使用多种训练目标,多角度提升模型能力;
通过大规模的泛金融领域语料,将通用孟子模型迁移到金融领域。金融版孟子模型已经应用于多个金融行业的合作企业,在金融知识图谱搭建、脱水研报、公告抽取等多个任务上获得了出色的表现。
通过大规模的营销领域语料,将孟子模型迁移到数字营销领域,完成了营销文案生成、新闻摘要等多项任务,将用于行业头部的数字营销公司和多个世界五百强企业的合作之中。
ACL 论文分享会将设置 Keynote、 论文分享 、圆桌论坛、 Poster与企业展台环节 ,国内 NLP 顶级大牛周明将作为圆桌论坛嘉宾参与此次活动。
欢迎论文作者、AI 社区从业者们点击「阅读原文」报名参与。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com